이상 탐지 모델 성능 평가 안내서

이상 탐지 모델 성능 평가 안내서

1. 서론: 이상 탐지 모델 평가의 본질과 도전 과제

1.1 이상 탐지의 정의 및 중요성

이상 탐지(Anomaly Detection) 또는 이상치 탐지(Outlier Detection)는 데이터 집합 내에서 대부분의 데이터와는 현저히 다른 패턴을 보이는 희귀한 개체, 이벤트, 또는 관측치를 식별하는 데이터 분석 기법이다.1 정상적인 행위의 패턴에서 벗어나는 이러한 이례적인 데이터 포인트를 ‘이상(anomaly)’, ‘이상치(outlier)’, ‘이탈(deviation)’ 등으로 칭한다.1 이 기술은 단순히 데이터를 정리하는 전처리 단계를 넘어, 시스템의 잠재적 위험을 사전에 감지하고 막대한 손실을 예방하는 핵심적인 역할을 수행한다.

금융 분야에서는 신용카드 사기 거래나 비정상적인 주식 거래 패턴을 탐지하여 금융 손실을 방지하고 2, 사이버 보안 영역에서는 네트워크 침입 시도나 악성코드의 이상 행위를 식별하여 시스템을 보호한다.4 또한, 제조업에서는 산업 설비의 센서 데이터에서 고장 징후를 미리 발견하여 예지 보전을 수행하고 6, 의료 분야에서는 환자의 생체 신호에서 질병의 초기 징후를 포착하는 등 2 그 활용 범위는 매우 광범위하다. 이처럼 이상 탐지는 데이터 기반의 의사결정이 중요한 모든 산업에서 시스템의 안정성, 보안성, 효율성을 보장하는 필수 불가결한 기술로 자리 잡았다.8

1.2 평가의 핵심 난제: 데이터 희소성과 클래스 불균형

이상 탐지 모델의 성능을 올바르게 평가하는 것은 모델을 개발하는 것만큼이나 중요하지만, 여기에는 근본적인 어려움이 따른다. 그 핵심에는 이상 데이터의 본질적 특성인 ’희소성’이 있다.1 실제 대부분의 데이터셋에서 이상 현상은 극히 드물게 발생한다. 예를 들어, 전체 금융 거래 중 사기 거래는 1% 미만을 차지하는 경우가 많으며 11, 시스템 장애 역시 전체 운영 시간의 극히 일부에 불과하다.

이러한 극심한 클래스 불균형(Class Imbalance)은 인공지능 모델의 학습과 평가 과정에 심각한 왜곡을 초래한다.13 모델은 데이터의 대다수를 차지하는 ‘정상’ 클래스에 과도하게 적합(overfitting)되어, 소수의 ‘이상’ 클래스를 제대로 학습하지 못하거나 노이즈로 취급하는 경향이 있다.10 이러한 편향된 모델에 전통적인 분류 평가 지표를 적용할 경우, 모델의 실제 성능을 파악하기 어려울 뿐만 아니라, 때로는 완전히 잘못된 결론에 도달하게 된다. 따라서 본 안내서는 이러한 근본적인 난제를 해결하고, 이상 탐지 모델의 가치를 정확하게 측정하기 위한 체계적이고 심층적인 평가 방법론을 제시하는 것을 목표로 한다.

이 과정에서 평가 지표의 선택은 단순한 기술적 절차를 넘어, 해결하고자 하는 문제의 본질을 어떻게 규정하고 무엇을 ’성공적인 결과’로 간주할 것인지를 반영하는 철학적 행위임을 이해해야 한다. 예를 들어, 의료 진단이나 핵심 시스템 모니터링 분야에서는 잠재적 위협을 단 하나라도 놓치지 않는 것이 중요하므로, 일부 오탐(False Positive)을 감수하더라도 재현율(Recall)을 최우선으로 고려한다.15 이는 “약간의 낭비가 있더라도, 치명적인 실수는 없어야 한다“는 문제 프레임워크를 반영한다. 반면, 고객에게 직접적인 영향을 미치는 금융 사기 알림 시스템에서는 불필요한 경고로 인한 고객의 불편과 신뢰도 하락을 최소화해야 하므로 정밀도(Precision)를 더 중요하게 여긴다.16 이는 “우리가 보내는 모든 경고는 신뢰할 수 있어야 한다“는 문제 프레임워크를 나타낸다. 이처럼 평가 지표의 선택은 특정 유형의 오류(오탐 vs. 미탐)가 비즈니스 또는 운영에 미치는 비대칭적인 비용 구조를 명시적으로 선언하는 행위이다.18 데이터 과학자는 모델 오류의 운영상 결과를 깊이 이해하지 않고서는 올바른 평가 지표를 선택할 수 없으며, 평가 지표는 기술적 모델과 비즈니스 가치를 연결하는 핵심적인 다리 역할을 한다.

2. 부: 지도 및 준지도 이상 탐지 모델 평가

이 섹션에서는 실제 값(ground truth) 레이블이 존재하는 지도 학습(Supervised Learning) 및 준지도 학습(Semi-supervised Learning) 환경에서 사용되는 평가 지표들을 심도 있게 다룬다. 이러한 지표들은 모든 분류 모델 평가의 기초를 형성하며, 특히 이상 탐지라는 특수한 맥락에서 어떻게 재해석되고 적용되어야 하는지에 초점을 맞춘다.

2.1 평가의 출발점: 혼동 행렬(Confusion Matrix)의 재해석

모든 분류 모델의 성능 평가는 혼동 행렬(Confusion Matrix)에서 시작된다. 혼동 행렬은 모델의 예측 결과와 실제 정답을 비교하여 네 가지 유형으로 명확하게 분류한 표로, 이후에 다룰 모든 평가지표의 근간을 이룬다.20

이상 탐지 문제에서 혼동 행렬을 올바르게 해석하기 위해서는 먼저 ’양성(Positive)’과 ‘음성(Negative)’ 클래스를 명확히 정의해야 한다. 관례적으로, 우리가 탐지하고자 하는 대상이자 소수 클래스인 ’이상(Anomaly)’을 양성 클래스로, 데이터의 대다수를 차지하는 ’정상(Normal)’을 음성 클래스로 설정한다.23 이러한 정의에 따라 혼동 행렬의 각 구성 요소를 다음과 같이 재해석할 수 있다.

  • 참 양성 (True Positive, TP): 실제 ‘이상’ 데이터를 ’이상’으로 정확하게 예측한 경우. 이는 이상 탐지 모델의 핵심 성공 사례에 해당한다. 예를 들어, 악성 네트워크 트래픽을 성공적으로 차단하거나, 신용카드 사기 거래를 정확히 잡아내는 경우가 여기에 속한다.21

  • 거짓 양성 (False Positive, FP): 실제 ‘정상’ 데이터를 ’이상’으로 잘못 예측한 경우. 이는 ‘오탐(false alarm)’ 또는 **‘Type I 오류’**라고도 불린다. 이 오류는 불필요한 비용과 자원 낭비를 초래한다. 예를 들어, 정상적인 금융 거래를 사기로 분류하여 고객의 결제를 차단하거나, 멀쩡한 시스템 부품에 대해 교체 경고를 보내는 경우가 해당한다.21

  • 참 음성 (True Negative, TN): 실제 ‘정상’ 데이터를 ’정상’으로 정확하게 예측한 경우. 모델이 정상 상태를 올바르게 식별했음을 의미한다. 대부분의 이상 탐지 데이터셋에서 이 값은 압도적으로 크다.21

  • 거짓 음성 (False Negative, FN): 실제 ‘이상’ 데이터를 ’정상’으로 잘못 예측한 경우. 이는 ‘미탐(miss)’ 또는 **‘Type II 오류’**라고 불리며, 종종 가장 치명적인 오류로 간주된다. 탐지해야 할 실제 위협을 놓치는 경우이기 때문이다. 예를 들어, 암 진단에서 악성 종양을 정상으로 판독하거나, 시스템의 심각한 결함 징후를 놓쳐 대형 사고로 이어지는 경우가 여기에 해당한다.21

이러한 구성 요소들은 단순히 숫자의 나열이 아니라, 각각 뚜렷한 비즈니스적, 운영적 의미를 지닌다. FP는 운영 효율성을 저하시키는 비용이며, FN은 잠재적으로 막대한 손실이나 위험을 초래하는 리스크이다. 따라서 이상 탐지 모델을 평가하는 것은 이 두 가지 유형의 오류 사이에서 최적의 균형점을 찾는 과정이라고 할 수 있다.

표 1: 이상 탐지를 위한 혼동 행렬 구성 요소

구분예측: 이상 (Positive)예측: 정상 (Negative)
실제: 이상 (Positive)True Positive (TP)
(성공적인 이상 탐지)
False Negative (FN)
(치명적인 미탐)
실제: 정상 (Negative)False Positive (FP)
(불필요한 오탐)
True Negative (TN)
(올바른 정상 판정)

2.2 가장 흔한 오류: 정확도(Accuracy)의 함정과 역설

정확도(Accuracy)는 가장 직관적이고 널리 알려진 분류 모델 평가지표이다. 전체 데이터 샘플 중에서 모델이 올바르게 분류한 샘플의 비율을 나타낸다.20

수식은 다음과 같다.

\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
20

그러나 이 직관적인 지표는 이상 탐지와 같이 클래스 불균형이 극심한 데이터셋을 평가할 때 심각한 함정을 가지고 있다. 이를 ’정확도의 역설(Accuracy Paradox)’이라고 부른다.11 이 역설은 모델이 실질적으로 아무런 예측 능력이 없음에도 불구하고 매우 높은 정확도 수치를 보여주는 현상을 말한다.

예를 들어, 이상 데이터가 전체의 1%에 불과하고 정상 데이터가 99%를 차지하는 데이터셋이 있다고 가정하자. 이때, 어떤 모델이 모든 입력에 대해 무조건 ’정상’이라고만 예측한다고 생각해보자. 이 모델은 단 하나의 이상 데이터도 탐지하지 못하는, 실용적으로는 전혀 가치가 없는 모델이다. 하지만 이 모델의 정확도를 계산해보면, 99%의 정상 데이터는 모두 올바르게 ‘정상’(TN)으로 예측했으므로, 정확도는 99%에 가깝게 나온다.12 이처럼 높은 정확도 수치는 모델이 매우 뛰어난 성능을 보이는 것처럼 착각하게 만들지만, 실제로는 우리가 정말로 관심 있는 소수 클래스(이상)에 대해서는 아무런 변별력을 갖지 못함을 의미한다.

이러한 역설이 발생하는 수학적 원인은 정확도 계산식의 분자에 TN이 포함되어 있기 때문이다. 이상 탐지 데이터셋에서는 TN의 수가 TP, FP, FN에 비해 압도적으로 크다. 따라서 전체 정확도 값은 TN의 크기에 의해 거의 전적으로 결정되며, 소수 클래스인 ‘이상’ 데이터에 대한 예측 성능(TP, FN)이 전체 지표에 미치는 영향은 거의 무시할 수 있을 정도로 작아진다.20

결론적으로, 정확도는 클래스 불균형이 심한 이상 탐지 문제의 평가지표로서는 부적절하며, 모델의 실제 성능에 대한 심각한 오해를 불러일으킬 수 있다. 따라서 이상 탐지 모델 평가에서는 정확도를 주 지표로 사용해서는 안 되며, 만약 사용하더라도 다른 지표들과 함께 매우 신중하게 해석해야 한다.

2.3 불균형 데이터 평가의 표준: 정밀도(Precision), 재현율(Recall), F1-Score

정확도의 한계를 극복하고 클래스 불균형 데이터셋에서 모델의 성능을 실질적으로 평가하기 위해, 소수 클래스(이상)에 초점을 맞춘 지표들이 사용된다. 그중 가장 핵심적인 것이 정밀도(Precision), 재현율(Recall), 그리고 이 둘을 조합한 F1-Score이다.

2.3.1 정밀도 (Precision)

정밀도(Precision)는 모델이 ’이상’이라고 예측한 샘플들 중에서, 실제로 ’이상’이었던 샘플의 비율을 나타낸다.15 ’양성 예측 가치(Positive Predictive Value, PPV)’라고도 불린다.25 이 지표는 모델의 예측이 얼마나 정확하고 신뢰할 수 있는지를 측정한다.

수식은 다음과 같다.

\text{Precision} = \frac{TP}{TP + FP}
25

정밀도는 거짓 양성(FP), 즉 오탐을 최소화하는 것이 중요할 때 핵심적인 지표가 된다. 높은 정밀도는 모델이 ’이상’이라고 경고했을 때, 그 경고가 사실일 확률이 높다는 것을 의미한다. 예를 들어, 정상적인 신용카드 거래를 사기로 잘못 판단하여 차단(FP)하면 고객에게 큰 불편을 주고 비즈니스에 손실을 끼칠 수 있다. 이런 경우, 정밀도를 높여 오탐의 비용을 줄이는 것이 중요하다.16

2.3.2 재현율 (Recall)

재현율(Recall)은 실제 ’이상’인 모든 샘플 중에서, 모델이 ’이상’으로 올바르게 예측해낸 샘플의 비율을 나타낸다.15 ‘민감도(Sensitivity)’ 또는 ’참 양성 비율(True Positive Rate, TPR)’과 동일한 개념이다.25 이 지표는 모델이 탐지해야 할 대상을 얼마나 놓치지 않고 잘 찾아내는지를 측정한다.

수식은 다음과 같다.

\text{Recall} = \frac{TP}{TP + FN}
25

재현율은 거짓 음성(FN), 즉 미탐을 최소화하는 것이 중요할 때 핵심적인 지표가 된다. 높은 재현율은 실제 이상 상황이 발생했을 때, 모델이 그것을 놓칠 확률이 낮다는 것을 의미한다. 예를 들어, 암 진단 모델이 악성 종양을 정상으로 오진(FN)하거나, 공장 설비의 심각한 고장 징후를 탐지하지 못하는(FN) 경우는 치명적인 결과를 초래할 수 있다. 이러한 시나리오에서는 재현율을 극대화하여 미탐의 리스크를 줄이는 것이 최우선 과제이다.18

2.3.3 정밀도와 재현율의 트레이드오프 (Trade-off)

정밀도와 재현율은 일반적으로 상충 관계(trade-off)에 있다.13 즉, 하나의 지표를 높이려고 하면 다른 지표가 낮아지는 경향이 있다. 모델이 이상을 예측하는 기준이 되는 분류 임계값(classification threshold)을 낮추면 더 많은 샘플을 ’이상’으로 예측하게 되어 재현율은 높아지지만, 그 과정에서 정상 샘플을 이상으로 잘못 예측하는 FP가 늘어나 정밀도는 낮아진다. 반대로 임계값을 높이면 모델이 더 확실한 경우에만 ’이상’으로 예측하므로 정밀도는 올라가지만, 일부 애매한 이상 샘플을 놓치게 되어(FN 증가) 재현율은 떨어진다.24 따라서 이상 탐지 모델을 설계하고 튜닝하는 과정은 이 두 지표 사이에서 해당 문제에 가장 적합한 균형점을 찾는 과정이다.

2.3.4 F1-Score

F1-Score는 정밀도와 재현율의 조화 평균(Harmonic Mean)으로, 두 지표를 하나의 숫자로 결합하여 모델의 종합적인 성능을 나타낸다.24 F1-Score는 정밀도와 재현율이 모두 중요하게 고려되어야 할 때, 즉 FP와 FN 오류를 모두 균형 있게 관리해야 할 때 유용하다.15

수식은 다음과 같다.

\text{F1-Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} = \frac{2TP}{2TP + FP + FN}
25

산술 평균이 아닌 조화 평균을 사용하는 이유는 두 지표 중 어느 하나라도 값이 매우 낮으면 F1-Score 역시 낮아지도록 하기 위함이다. 이는 모델이 정밀도나 재현율 중 한쪽에만 치우치는 것을 방지하고, 두 지표 모두에서 준수한 성능을 내도록 유도하는 효과가 있다.29

표 2: 핵심 평가지표(정밀도, 재현율, F1-Score) 요약

지표수식핵심 질문중점적으로 관리하는 오류주요 사용 사례
정밀도 (Precision)\frac{TP}{TP + FP}모델이 ’이상’이라고 한 예측을 얼마나 믿을 수 있는가?FP (오탐)스팸 메일 필터, 금융 사기 알림 (고객 불편 최소화)
재현율 (Recall)\frac{TP}{TP + FN}실제 이상 중 얼마나 많이 탐지해냈는가?FN (미탐)암 진단, 중요 설비 고장 예측 (놓쳤을 때의 비용이 막대한 경우)
F1-Score2 \times \frac{P \times R}{P + R}정밀도와 재현율의 균형점은 어디인가?FP와 FN 모두두 종류의 오류 비용이 비슷하거나, 균형 잡힌 성능이 필요할 때

2.4 분류 임계값(Threshold)을 넘어: ROC 곡선과 AUC

정밀도, 재현율, F1-Score는 특정 분류 임계값(threshold)에서의 모델 성능을 보여주는 ’스냅샷’과 같다. 하지만 모델의 전반적인 성능을 임계값의 변화에 관계없이 종합적으로 평가하기 위해서는 다른 접근법이 필요하다. 이때 사용되는 대표적인 도구가 ROC 곡선과 AUC이다.

2.4.1 ROC (Receiver Operating Characteristic) 곡선

ROC 곡선은 분류 모델의 임계값을 0부터 1까지 연속적으로 변화시킬 때, 각 임계값에서 계산되는 ’참 양성 비율(TPR)’과 ’거짓 양성 비율(FPR)’의 관계를 2차원 평면에 시각화한 그래프이다.30

ROC 곡선을 구성하는 두 축은 다음과 같이 정의된다.

  • Y축: 참 양성 비율 (True Positive Rate, TPR): 이 값은 재현율(Recall)과 완전히 동일하다. 실제 양성(이상) 샘플 중에서 모델이 양성으로 올바르게 예측한 비율을 의미한다.23

\text{TPR} = \text{Recall} = \frac{TP}{TP + FN}
31

  • X축: 거짓 양성 비율 (False Positive Rate, FPR): 실제 음성(정상) 샘플 중에서 모델이 양성(이상)으로 잘못 예측한 비율을 의미한다. 이는 ’1 - 특이도(Specificity)’와 같다.23

\text{FPR} = \frac{FP}{FP + TN}
31

ROC 곡선을 해석하는 방법은 다음과 같다.

  • 최적의 모델: 곡선이 그래프의 좌상단 모서리, 즉 (0, 1) 지점에 가까울수록 성능이 우수한 모델이다. 이 지점은 FPR이 0이면서 TPR이 1인 이상적인 상태를 의미하며, 이는 오탐 없이 모든 이상을 완벽하게 탐지했음을 뜻한다.31

  • 무작위 모델: 그래프의 대각선(y=x)은 모델의 예측이 무작위 추측과 다를 바 없음을 나타낸다. 이 선 위의 점들은 TPR과 FPR이 동일한 상태로, 모델이 양성과 음성을 구별할 능력이 없음을 의미한다.31

  • 성능 비교: 여러 모델의 ROC 곡선을 한 평면에 그렸을 때, 더 좌상단에 가깝게 그려지는 곡선의 모델이 전반적으로 더 나은 성능을 보인다고 평가할 수 있다.33

2.4.2 AUC (Area Under the ROC Curve)

AUC는 ROC 곡선 아래의 면적을 계산한 값으로, 0과 1 사이의 수치를 가진다.30 이 값은 모델의 성능을 단일 숫자로 요약하여 보여주며, 임계값의 변화와 관계없이 모델이 양성 샘플과 음성 샘플을 얼마나 잘 구별하는지에 대한 종합적인 능력을 나타낸다.31

  • AUC = 1: 완벽한 분류기. 양성 샘플과 음성 샘플을 100% 완벽하게 구별한다.

  • AUC = 0.5: 무작위 분류기. 모델의 성능이 동전 던지기와 같다.

  • 0.5 < AUC < 1: 일반적인 분류기. AUC 값이 1에 가까울수록 성능이 우수하다.

  • AUC < 0.5: 무작위 분류기보다 성능이 나쁜 경우로, 예측 결과를 반대로 사용하면 성능이 향상될 수 있다.

AUC는 “무작위로 선택된 양성 샘플의 예측 점수가 무작위로 선택된 음성 샘플의 예측 점수보다 높을 확률“이라는 통계적 의미를 가진다.31 이 때문에 AUC는 모델의 순위 결정(ranking) 능력을 평가하는 데 매우 유용한 지표로 활용된다.

2.5 극단적 불균형 상황의 최종 해결책: PR 곡선과 AUC-PR

ROC 곡선과 AUC는 널리 사용되는 강력한 평가지표이지만, 이상 탐지와 같이 클래스 불균형이 극단적으로 심한 상황에서는 모델의 성능을 지나치게 낙관적으로 평가하는 경향이 있다.35 이러한 한계를 극복하기 위해 PR 곡선과 AUC-PR이 대안으로 제시된다.

2.5.1 ROC 곡선의 한계와 그 원인

ROC 곡선의 근본적인 한계는 X축 지표인 FPR의 계산 방식에 있다. FPR의 분모(FP + TN)에는 다수 클래스인 ‘정상’ 데이터의 수, 즉 TN이 포함된다.23 이상 탐지 데이터셋에서는

TN의 수가 FP에 비해 압도적으로 크기 때문에, 모델이 생성하는 오탐(FP)의 수가 상당히 크게 변하더라도 전체 FPR 값의 변화는 매우 미미하게 나타난다.

예를 들어, 10개의 이상 샘플과 100,000개의 정상 샘플이 있는 데이터셋을 생각해보자. 모델 A가 900개의 오탐(FP)을, 모델 B가 90개의 오탐을 생성했다고 가정하자. 모델 B가 훨씬 정밀함에도 불구하고, 두 모델의 FPR 값은 각각 900 / 100,000 = 0.00990 / 100,000 = 0.0009로, 그 차이가 매우 작다. ROC 곡선 상에서는 이 미미한 차이가 잘 드러나지 않아, 두 모델의 성능 차이를 제대로 변별하기 어렵다.37 결과적으로 ROC 곡선은 모델이 얼마나 많은 ‘헛수고’(FP)를 하는지에 둔감해지고, 이는 실용적인 관점에서 모델의 가치를 왜곡할 수 있다.

2.5.2 PR (Precision-Recall) 곡선과 그 강점

PR 곡선은 이러한 ROC 곡선의 단점을 보완하기 위해 등장했다. PR 곡선은 X축에 재현율(Recall), Y축에 정밀도(Precision)를 놓고 임계값의 변화에 따른 두 지표의 관계를 시각화한다.23

PR 곡선의 가장 큰 강점은 평가에 사용되는 두 지표, 정밀도와 재현율 모두 계산식에 다수 클래스인 TN을 포함하지 않는다는 점이다. 이들은 오직 TP, FP, FN, 즉 소수 클래스인 ‘이상’ 데이터와 관련된 예측 결과만을 기반으로 계산된다. 따라서 PR 곡선은 다수 클래스의 크기에 영향을 받지 않고, 오롯이 소수 클래스를 얼마나 잘 탐지하고(재현율), 그 예측이 얼마나 정확한지(정밀도)에만 집중한다. 이는 클래스 불균형이 심각한 데이터셋에서 모델의 실질적인 성능을 훨씬 더 민감하고 현실적으로 반영하게 해준다.39

2.5.3 AUC-PR (Area Under the PR Curve)

AUC-PR은 PR 곡선 아래의 면적을 계산한 값으로, AUC-ROC와 마찬가지로 모델의 전반적인 성능을 단일 수치로 요약한다.23 AUC-PR 값이 1에 가까울수록 이상적인 모델을 의미한다. 한 가지 중요한 차이점은, 무작위 모델의 AUC-PR 기준선(baseline)은 0.5로 고정된 AUC-ROC와 달리, 데이터셋의 양성 클래스 비율(prevalence, 즉 P / (P+N))과 같다는 것이다.37 예를 들어, 이상 데이터가 1%인 데이터셋에서 무작위 모델의 AUC-PR은 0.01이 된다. 따라서 AUC-PR 점수는 항상 이 기준선과 비교하여 상대적으로 해석해야 한다.

2.5.4 AUC-ROC와 AUC-PR의 본질적 차이

AUC-ROC와 AUC-PR의 차이는 단순히 사용하는 지표의 차이를 넘어, 평가하는 대상의 본질이 다르다는 점에서 이해할 수 있다.

AUC-ROC는 근본적으로 모델이 무작위로 선택된 양성 샘플과 음성 샘플의 순위를 올바르게 매길 확률을 측정한다.31 즉, 이는 모델의 ‘판별 및 순위 결정(Ranking)’ 능력에 대한 평가이다. 모델이 전반적으로 이상할 가능성이 높은 샘플에 더 높은 점수를 부여하는 경향이 있는지를 본다.

반면, AUC-PR은 다양한 재현율 수준에서 모델이 얼마나 높은 정밀도를 유지할 수 있는지를 측정한다. 이는 모델의 **‘탐지 품질(Detection Quality)’**에 대한 평가이다. 즉, “모델이 제시하는 이상 후보들을 따라갔을 때, 얼마나 자주 실제 이상을 발견하게 될 것인가?“라는 실용적인 질문에 답한다.40

이상 탐지의 실제 운영 환경에서는 후자의 질문이 훨씬 더 중요하다. 모델이 순위를 잘 매기는 능력(높은 AUC-ROC)을 가졌더라도, 합리적인 재현율 수준에서 정밀도가 매우 낮다면(즉, 하나의 실제 이상을 찾기 위해 수많은 오탐을 검토해야 한다면) 그 모델은 실용성이 없다. PR 곡선은 이러한 낮은 정밀도를 즉각적으로 보여주지만, ROC 곡선은 FPR의 둔감성 때문에 이러한 문제를 감출 수 있다.37 따라서 대부분의 이상 탐지 시나리오에서는 AUC-PR이 모델의 운영 가치를 더 정확하게 대변하는 지표라고 할 수 있다.

표 3: ROC-AUC와 AUC-PR의 핵심 차이점 비교

특징ROC 곡선 / AUC-ROCPR 곡선 / AUC-PR
X축FPR (False Positive Rate)Recall (재현율)
Y축TPR (True Positive Rate) / RecallPrecision (정밀도)
다수 클래스(TN) 의존성높음 (FPR 수식에 TN 포함)없음 (Precision, Recall 모두 TN 미포함)
클래스 불균형 민감도낮음 (성능을 낙관적으로 왜곡할 수 있음)높음 (불균형 데이터 성능을 현실적으로 반영)
무작위 모델 기준선0.5 (고정)양성 클래스 비율 (데이터에 따라 변동)
주요 초점양성/음성 클래스 구분 능력 (Ranking)소수(양성) 클래스 탐지 성능 (Detection)
권장 사용 사례클래스 분포가 비교적 균등할 때클래스 불균형이 심각하고, 양성 클래스 탐지가 중요할 때 (대부분의 이상 탐지)

3. 부: 비지도 이상 탐지 모델 평가

정답 레이블이 없는 데이터에 적용되는 비지도 학습(Unsupervised Learning) 기반 이상 탐지 모델의 평가는 본질적으로 매우 어려운 과제이다.42 정답이 없기 때문에, 모델의 예측이 ‘맞았는지’ 혹은 ’틀렸는지’를 직접적으로 판단할 수 없다. 따라서 비지도 모델의 평가는 데이터의 내재적 구조를 활용하거나, 가상의 정답을 생성하거나, 전문가의 지식을 동원하는 등 간접적인 방법에 의존할 수밖에 없다.44

3.1 정답 없는 평가: 비지도 학습 평가의 근본적 난제

비지도 학습 평가 방법은 크게 내재적(Internal) 평가와 외재적(External) 평가로 나눌 수 있다.45

  • 내재적 평가: 이 방법은 정답 레이블 없이 데이터 자체의 고유한 특성만을 사용하여 모델의 성능을 평가한다. 예를 들어, 군집화 모델의 경우 군집이 얼마나 밀집되어 있고 서로 잘 분리되어 있는지를 측정하는 방식이다. 이 방법은 레이블이 전혀 없는 실제 환경에서 모델의 상대적 성능을 비교하거나 하이퍼파라미터를 튜닝하는 데 유용하다.

  • 외재적 평가: 이 방법은 외부 정보, 즉 실제 정답 레이블과 모델의 예측 결과를 비교하여 성능을 평가한다. 비지도 학습 모델 자체는 레이블 없이 학습되지만, 평가 단계에서는 사전에 확보된 벤치마크 데이터셋의 레이블을 활용하여 모델의 성능을 검증한다. 이는 주로 학술 연구에서 새로운 알고리즘의 성능을 기존 알고리즘과 객관적으로 비교하기 위해 사용된다.

또한, 평가 접근법은 정량적 평가와 정성적 평가로도 구분할 수 있다.

  • 정량적 평가: 실루엣 계수나 합성 데이터 기반의 정밀도/재현율처럼 성능을 수치화된 지표로 나타내는 방법이다. 객관적인 비교가 가능하지만, 지표 자체가 문제의 본질을 완벽하게 반영하지 못할 수 있다.42

  • 정성적 평가: 도메인 전문가가 탐지된 이상치들을 직접 검토하여 그 결과가 실제 비즈니스 관점에서 의미가 있는지 주관적으로 판단하거나, 데이터 시각화를 통해 패턴을 분석하는 방법이다. 모델의 실용성을 평가하는 데 필수적이지만, 시간과 비용이 많이 들고 평가자의 주관이 개입될 수 있다.46

실용적인 관점에서 비지도 이상 탐지 모델을 성공적으로 평가하기 위해서는 이러한 접근법들을 상호 보완적으로 활용하는 종합적인 전략이 필요하다.

3.2 데이터의 내재적 구조 활용: 군집화 기반 정량 평가

비지도 이상 탐지 알고리즘의 상당수는 ’이상 데이터는 정상 데이터와 다른 분포적 특성을 가질 것’이라는 가정에 기반한다. 특히 군집화 기반 접근법은 정상 데이터는 하나 또는 여러 개의 조밀한 군집을 형성하는 반면, 이상 데이터는 이러한 주 군집에서 멀리 떨어진 고립된 지점이거나, 매우 작고 희소한 군집을 형성할 것이라고 가정한다.1

이러한 가정에 착안하여, 군집화 알고리즘의 성능을 평가하는 내재적 지표들을 이상 탐지 모델의 성능을 평가하는 대리 지표(proxy metric)로 활용할 수 있다. 즉, 모델이 ’정상’과 ’이상’을 얼마나 뚜렷하게 구분된 군집으로 분리해내는지를 측정함으로써 모델의 성능을 간접적으로 평가하는 것이다. 대표적인 지표는 다음과 같다.

  • 실루엣 계수 (Silhouette Coefficient): 이 지표는 개별 데이터 포인트가 자신이 속한 군집 내의 다른 데이터들과 얼마나 가깝고(응집도), 가장 가까운 다른 군집의 데이터들과는 얼마나 먼지(분리도)를 동시에 측정한다.45 값의 범위는 -1부터 1까지이며, 1에 가까울수록 해당 데이터 포인트가 자신의 군집에 잘 속해 있고 다른 군집과는 명확히 분리되어 있음을 의미한다. 0에 가까우면 군집의 경계에 위치하며, 음수 값은 잘못된 군집에 할당되었을 가능성을 시사한다. 전체 데이터셋의 평균 실루엣 계수가 높을수록 군집화가 잘 되었다고 평가할 수 있으며, 이는 이상치 군집과 정상 군집이 잘 분리되었음을 간접적으로 나타낸다.50

  • 칼린스키-하라바츠 지수 (Calinski-Harabasz Index): 이 지표는 ’분산 비율 기준(Variance Ratio Criterion)’이라고도 불리며, 전체 군집 간의 분산(분리도)과 각 군집 내의 분산(응집도)의 비율을 계산한다.45 점수가 높을수록 군집들이 내부적으로는 조밀하게 뭉쳐있고, 외부적으로는 서로 멀리 떨어져 잘 분리되어 있음을 의미한다. 이 지표 역시 높은 값을 보일수록 이상치 군집과 정상 군집이 효과적으로 분리되었다고 해석할 수 있다.50

이러한 내재적 군집화 지표들은 정답 레이블 없이도 여러 비지도 이상 탐지 모델의 상대적인 성능을 비교하거나, 단일 모델의 최적 하이퍼파라미터를 찾는 데 유용한 도구가 될 수 있다. 하지만 이 지표들이 높다고 해서 반드시 비즈니스적으로 의미 있는 이상을 탐지했다는 보장은 없으므로, 해석에 주의가 필요하다.

표 4: 비지도 평가를 위한 내재적 군집화 지표

지표핵심 원리점수 범위해석이상 탐지 적용
실루엣 계수개별 데이터의 군집 내 응집도 vs. 군집 간 분리도[-1, 1]1에 가까울수록 좋음이상치 군집이 정상 군집과 명확히 분리되는 정도를 평가
칼린스키-하라바츠 지수모든 군집의 군집 간 분산 / 군집 내 분산` 이 방법은 정답 레이블이 없는 순수한 ‘정상’ 데이터셋에 의도적으로 가공된 이상 데이터를 주입하여 ’가상의 정답셋’을 생성하고, 이를 기반으로 지도 학습 평가 지표(정밀도, 재현율 등)를 사용하여 모델의 성능을 측정하는 방식이다.52

평가 절차는 일반적으로 다음과 같은 단계를 거친다.51

  1. 정상 데이터셋 준비: 레이블이 없지만 ‘정상’ 상태를 대표한다고 가정하는 데이터셋을 확보한다.

  2. 가상 이상 데이터 생성: 탐지하고자 하는 이상 현상의 특성을 모방하여 다양한 유형과 강도의 데이터를 인공적으로 생성한다. 예를 들어, 시계열 데이터에서는 갑작스러운 스파이크(spike), 레벨의 갑작스러운 변화(level shift), 주기성 변화 등의 이상을 생성할 수 있다.51 이미지 데이터에서는 스크래치, 얼룩, 변색 등의 결함을 합성할 수 있다.53

  3. 데이터 주입: 생성된 가상 이상 데이터를 준비된 정상 데이터셋의 여러 무작위 위치에 주입하여 평가용 데이터셋을 구축한다.

  4. 모델 평가: 구축된 평가용 데이터셋에 비지도 이상 탐지 모델을 적용한다. 모델이 주입된 가상 이상 데이터를 얼마나 정확하게 탐지하는지를 정밀도, 재현율, F1-Score, AUC-PR 등의 지표를 사용하여 정량적으로 평가한다.

이 기법의 가장 큰 장점은 모델의 성능을 객관적이고 통제된 환경에서 측정할 수 있다는 것이다. 특히, 주입하는 이상의 강도를 점진적으로 조절하면서 평가를 반복하면, 모델이 안정적으로 탐지할 수 있는 이상의 최소 강도나 크기, 즉 **‘최소 탐지 가능 이상(Minimum Detectable Anomaly)’**을 정량화할 수 있다.51 이는 모델의 민감도를 측정하고, 서로 다른 모델의 탐지 한계를 비교하는 데 매우 유용한 정보를 제공한다.

또한, ’가상 AUC(Synthetic AUC)’라는 개념도 활용될 수 있다. 이는 정상 데이터의 분포를 변형하여 더 ‘정상적인’ 데이터셋을 만들고, 동시에 더 ‘이상적인’ 데이터셋을 인위적으로 생성한 후, 모델이 이 두 가상 데이터셋을 얼마나 잘 구별하는지를 AUC로 측정하는 방식이다. 이를 통해 모델의 전반적인 판별 능력을 간접적으로 평가할 수 있다.55

3.3 전문가의 통찰력 활용: 정성적 평가

정량적 지표는 모델 성능의 특정 측면을 객관적으로 보여주지만, 그것이 실제 현장에서의 유용성을 보장하지는 않는다. 비지도 모델이 탐지한 이상치가 통계적으로는 특이할지라도, 비즈니스 관점에서는 무의미하거나 이미 알려진 현상일 수 있다. 따라서 비지도 이상 탐지 모델 평가의 마지막 단계는 반드시 **도메인 전문가의 정성적 검증(Domain Expert Validation)**을 포함해야 한다.46

정성적 평가는 해당 분야의 전문가(예: 금융 사기 분석가, 공장 설비 엔지니어, 보안 분석가)가 모델이 탐지한 상위 이상치 사례들을 직접 검토하고, 그 결과가 실제로 조사할 가치가 있는지, 의미 있는 발견인지를 판단하는 과정이다.56 이 과정은 다음과 같은 중요한 역할을 한다.

  • 모델의 실용성 검증: 정량적 지표로는 파악할 수 없는 모델의 실제적인 가치를 평가한다.

  • 오탐의 맥락적 이해: 모델이 왜 특정 정상 데이터를 이상으로 판단했는지(FP) 분석하여, 모델이 잘못 학습한 패턴이나 데이터의 숨겨진 특성을 발견할 수 있다.

  • 신뢰 구축: 최종 사용자인 전문가가 모델의 결과를 신뢰하고 활용하기 위해서는, 모델의 판단 근거를 이해하고 동의하는 과정이 필수적이다.

이러한 전문가 검증 과정을 효과적으로 지원하기 위해 설명가능 AI(Explainable AI, XAI) 기술의 중요성이 부각되고 있다. XAI는 모델이 특정 데이터 포인트를 왜 ’이상’으로 판단했는지에 대한 해석 가능한 근거를 제공한다.3 예를 들어, “이 거래는 평소 사용되지 않던 국가에서 심야 시간에 큰 금액으로 발생했기 때문에 이상으로 분류되었습니다“와 같은 설명을 통해 전문가는 모델의 판단 과정을 이해하고, 그 타당성을 더 쉽게 평가할 수 있다.57 만약 모델의 설명이 비즈니스 논리나 전문가의 지식과 일치하지 않는다면, 이는 모델이 데이터의 피상적이거나 잘못된 패턴을 학습했을 가능성을 시사하며, 모델 개선의 중요한 단서가 된다.

4. 부: 실용적 관점의 모델 평가 전략

지금까지 논의된 이론적인 평가지표들은 모델의 기술적 성능을 측정하는 데 필수적이다. 하지만 실제 운영 환경에서는 모델의 가치가 기술적 우수성만으로 결정되지 않는다. 모델의 예측 결과가 비즈니스 목표에 어떻게 기여하고, 운영 효율성을 얼마나 개선하며, 실제 제약 조건 하에서 얼마나 효과적으로 작동하는지가 더욱 중요하다. 이 섹션에서는 이러한 실용적 관점에서 모델을 평가하고 가치를 극대화하기 위한 전략을 다룬다.

4.1 비용-편익 분석: 비즈니스 손실 최소화를 위한 지표 선택

이상 탐지 모델이 만들어내는 두 가지 주요 오류, 즉 거짓 양성(FP, 오탐)과 거짓 음성(FN, 미탐)은 대부분의 비즈니스 환경에서 그 비용이 비대칭적이다.16 어떤 유형의 오류가 더 치명적인 손실을 초래하는지를 분석하고, 그에 맞춰 핵심 평가지표를 선택하는 것이 무엇보다 중요하다.58

4.1.1 사례 분석 1: 금융 사기 탐지 (정밀도 중시)

금융 사기 탐지 시스템에서 두 가지 오류의 비용을 분석해보자.

  • FP의 비용 (정상 거래를 사기로 차단): 이 경우의 비용은 매우 크고 즉각적이다. 고객은 결제가 거부되는 불편을 겪게 되며, 이는 브랜드에 대한 신뢰도 하락으로 이어진다. 또한, 오탐 경보가 발생할 때마다 분석팀이 투입되어 불필요한 조사를 수행해야 하므로 운영 비용이 증가한다.16

  • FN의 비용 (사기 거래를 정상으로 통과): 이 경우 직접적인 금전적 손실이 발생한다.

두 비용을 비교했을 때, 개별 사기 거래의 손실액보다 다수의 정상 고객에게 불편을 초래하고 브랜드 이미지를 훼손하는 FP의 누적 비용이 더 클 수 있다. 따라서 금융 사기 탐지, 특히 고객 대면 서비스에서는 FP를 최소화하는 것이 매우 중요하다. 이는 평가지표 관점에서 **정밀도(Precision)**를 극대화하는 전략으로 이어진다. 모델이 “사기“라고 예측했을 때, 그 예측이 매우 신뢰할 수 있어야 한다는 의미이다.

4.1.2 사례 분석 2: 설비 예지 보전 (재현율 중시)

제조업 공장의 핵심 설비 고장을 예측하는 시스템의 경우를 생각해보자.

  • FP의 비용 (정상 설비를 고장으로 예측): 이 경우, 불필요한 점검 인력이 투입되고, 아직 수명이 남은 부품을 조기에 교체하는 비용이 발생한다. 이는 분명한 손실이지만, 통제 가능한 범위 내에 있다.18

  • FN의 비용 (실제 고장 징후를 정상으로 판단): 이 경우의 비용은 재앙적일 수 있다. 설비의 갑작스러운 고장은 전체 생산 라인의 중단을 야기하여 막대한 생산 손실을 초래할 수 있으며, 경우에 따라서는 작업자의 안전을 위협하는 심각한 사고로 이어질 수도 있다.18

이 시나리오에서는 단 한 번의 미탐(FN)이 초래하는 비용이 수많은 오탐(FP)의 비용을 압도한다. 따라서 설비 예지 보전과 같은 안전-필수(safety-critical) 시스템에서는 잠재적인 위험 신호를 단 하나라도 놓치지 않는 것이 최우선 과제이다. 이는 평가지표 관점에서 **재현율(Recall)**을 극대화하는 전략으로 이어진다.

이처럼 비즈니스 문제의 본질과 각 오류 유형의 비용을 분석함으로써, 정밀도와 재현율 사이의 트레이드오프에서 어떤 지표에 가중치를 두어야 할지 명확한 방향을 설정할 수 있다.

4.2 운영 효율성 중심의 평가: 순위 기반 지표

AUC나 F1-Score와 같은 종합 지표는 모델의 전반적인 성능을 이해하는 데 유용하지만, 실제 운영 환경의 제약 조건을 직접적으로 반영하지는 못한다. 대부분의 조직은 제한된 인력과 시간으로 인해 모델이 생성하는 모든 이상 경보를 검토할 수 없다.59 예를 들어, 사기 탐지팀은 하루에 수백만 건의 거래 중 모델이 가장 위험하다고 판단한 상위 1%의 거래만 집중적으로 검토할 수 있다.

이러한 현실을 반영하기 위해, 모델이 가장 중요한 이상치들을 얼마나 효과적으로 상위 순위에 배치하는지를 평가하는 순위 기반 지표가 매우 중요하다.

  • 상위 X% 위험군 내 이상 탐지율 (Fraud Capture Rate at Top X%): 이 지표는 모델이 예측한 이상 점수(risk score)를 기준으로 데이터를 정렬한 후, 가장 위험도가 높은 상위 X%의 샘플 내에 실제 이상의 몇 퍼센트가 포함되어 있는지를 측정한다.59 예를 들어, “모델 A는 상위 5%의 위험군에서 전체 사기의 80%를 탐지했다“와 같은 평가는 매우 직관적이며, 운영 목표(예: “우리는 상위 5%만 검토할 수 있다”)와 직접적으로 연결된다. 이 지표는 모델의 실질적인 운영 효율성을 평가하는 데 가장 핵심적인 역할을 한다.

  • 리프트 (Lift): 리프트는 모델을 사용했을 때의 성과가 무작위로 샘플을 선택했을 때보다 얼마나 더 나은지를 측정하는 지표이다. 예를 들어, 전체 데이터의 이상 비율이 1%인데, 모델이 예측한 상위 5% 위험군의 이상 비율이 10%라면, 리프트는 10배가 된다. 이는 모델이 이상 데이터를 효과적으로 집중시키고 있음을 보여준다.59

  • KS 통계량 (Kolmogorov–Smirnov Statistic): KS 통계량은 정상 그룹과 이상 그룹의 누적 분포 함수 간의 최대 차이를 측정한다. 이 값이 클수록 모델이 두 그룹을 잘 분리하고 있음을 의미하며, 모델의 변별력을 간단하게 진단하고 시간에 따른 성능 저하(Model Drift)를 모니터링하는 데 유용하다.59

이러한 순위 기반 지표들은 “이 모델이 우리 팀의 업무를 얼마나 효율적으로 만들어 주는가?“라는 실용적인 질문에 직접적인 답을 제공한다.

4.3 시계열 데이터 평가의 특수성

시계열 데이터에서의 이상 탐지는 일반적인 테이블 데이터와는 다른 특수성을 가지며, 이는 평가 방법에도 영향을 미친다.

  • 점(Point) 기반 평가의 한계: 전통적인 평가지표들은 대부분 개별 데이터 포인트(시점)를 기준으로 예측을 평가한다. 그러나 시계열 데이터에서 이상 현상은 단일 시점이 아니라 특정 기간(range)에 걸쳐 지속되는 경우가 많다. 예를 들어, 서버 과부하 상태나 네트워크 공격은 수 분에서 수 시간 동안 지속될 수 있다. 점 기반 평가는 이러한 연속적인 이상 구간의 시작과 끝을 정확히 평가하기 어렵고, 단순히 긴 이상 구간을 탐지한 모델에 과도하게 높은 점수를 부여하는 왜곡을 낳을 수 있다.60

  • 범위(Range) 기반 평가의 필요성: 이러한 한계를 극복하기 위해, 실제 이상이 발생한 구간과 모델이 이상으로 예측한 구간이 얼마나 겹치는지를 기반으로 평가하는 범위 기반 접근법이 제안되었다. 예를 들어, Time-series aware Precision and Recall (TaPR)과 같은 지표는 시간적 맥락을 고려하여 오탐과 미탐을 평가함으로써, 더 현실적이고 공정한 성능 측정을 가능하게 한다.60 이 방식은 이상 현상의 지속성을 고려해야 하는 산업 제어 시스템, 네트워크 모니터링 등의 분야에서 특히 중요하다.

5. 결론: 상황에 맞는 최적의 종합 평가 프레임워크 구축

본 안내서를 통해 살펴본 바와 같이, 인공지능 이상 탐지 모델의 성능을 평가하는 것은 단 하나의 완벽한 지표를 찾는 과정이 아니다. 각 평가지표는 모델 성능의 특정 단면만을 보여줄 뿐이며, 특정 상황에서는 심각한 왜곡을 초래할 수도 있다. 따라서 성공적인 모델 평가는 여러 지표를 종합적으로 활용하여 모델을 다각도에서 입체적으로 분석하는 종합적인 프레임워크를 구축하는 데서 시작된다.

단일 지표의 맹신을 경계해야 한다. AUC-PR이 극심한 불균형 데이터에 적합하다고 해서, 그것만으로 모델의 모든 가치를 판단할 수는 없다. AUC-PR 점수가 높아도 실제 운영 환경에서 검토할 수 있는 상위 1% 위험군 내에서의 탐지율이 낮다면 그 모델은 실용성이 떨어진다.59 마찬가지로, 정량적 지표가 아무리 뛰어나도 도메인 전문가가 탐지된 이상치들이 무의미하다고 판단한다면 그 모델은 비즈니스 가치를 창출할 수 없다.61

따라서 효과적인 이상 탐지 모델 평가 프레임워크는 다음의 핵심 질문들에 대한 답을 체계적으로 찾아가는 과정으로 설계되어야 한다.

  1. 문제 정의 (Problem Definition): 우리가 탐지하려는 ’이상’의 구체적인 정의는 무엇인가? 이 이상 현상이 비즈니스에 미치는 긍정적 또는 부정적 영향은 무엇인가?

  2. 데이터 특성 (Data Characteristics): 평가에 사용할 데이터에 신뢰할 수 있는 레이블이 있는가? 클래스 불균형의 정도는 얼마나 심각한가? 데이터가 시계열, 이미지, 혹은 테이블 형태인가?

  3. 오류 비용 분석 (Error Cost Analysis): 거짓 양성(FP)과 거짓 음성(FN) 중 어떤 오류가 비즈니스에 더 치명적인가? 각 오류로 인해 발생하는 정량적, 정성적 비용은 어느 정도인가?

  4. 운영 제약 조건 (Operational Constraints): 모델이 생성한 이상 경보 중 실제로 검토하거나 조치할 수 있는 자원의 한계는 어디까지인가? (예: 하루에 검토 가능한 최대 케이스 수)

이러한 질문들에 대한 명확한 답을 바탕으로, 지도 학습 환경에서는 AUC-PR과 F1-Score를 기본으로 하되, 운영 효율성을 측정하기 위한 순위 기반 지표를 결합해야 한다. 비지도 학습 환경에서는 내재적 군집 지표와 합성 데이터 기반 평가를 통해 모델의 상대적 성능을 가늠하고, 최종적으로는 도메인 전문가의 정성적 검증을 통해 실용성을 확인해야 한다.

결론적으로, 최적의 평가 프레임워크는 기술적 지표와 비즈니스 가치를 연결하는 다리 역할을 해야 한다. 상황에 맞는 적절한 지표들을 조합하고, 정량적 분석과 정성적 통찰을 결합하여 모델의 가치를 종합적으로 증명하는 것이야말로, 이상 탐지 모델을 성공적으로 현장에 적용하고 그 잠재력을 극대화하는 유일한 길이다.

6. 참고 자료

  1. What is Anomaly Detection? Definition & FAQs - VMware, https://www.vmware.com/topics/anomaly-detection
  2. Anomaly detection - Wikipedia, https://en.wikipedia.org/wiki/Anomaly_detection
  3. A Survey on Explainable Anomaly Detection - arXiv, https://arxiv.org/pdf/2210.06959
  4. What is Anomaly Detection? - Elastic, https://www.elastic.co/what-is/anomaly-detection
  5. What Is Anomaly Detection? - CrowdStrike.com, https://www.crowdstrike.com/en-us/cybersecurity-101/next-gen-siem/anomaly-detection/
  6. Anomaly Detection in Machine Learning: Examples, Applications & Use Cases | IBM, https://www.ibm.com/think/topics/machine-learning-for-anomaly-detection
  7. Survey: Anomaly Detection Methods - Computer Science and Engineering, https://www.cs.ucr.edu/~egujr001/ucr/madlab/publication/EG_2023_Anomaly_Detection_Methods.pdf
  8. What is Anomaly Detection? - AWS, https://aws.amazon.com/what-is/anomaly-detection/
  9. A Comparative Evaluation of Unsupervised Anomaly Detection Algorithms for Multivariate Data | PLOS One, https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0152173
  10. (PDF) Challenges in Anomaly Detection - ResearchGate, https://www.researchgate.net/publication/391593710_Challenges_in_Anomaly_Detection
  11. Imbalanced Data : How to handle Imbalanced Classification Problems - Analytics Vidhya, https://www.analyticsvidhya.com/blog/2017/03/imbalanced-data-classification/
  12. Handling Imbalanced Datasets in Anomaly Detection: Best Practices - Blogs, https://blogs.infoservices.com/data-engineering-analytics/handling-imbalanced-datasets-in-anomaly-detection-best-practices/
  13. What are the challenges in anomaly detection? - Milvus, https://milvus.io/ai-quick-reference/what-are-the-challenges-in-anomaly-detection
  14. Computational Strategies for Handling Imbalanced Data in Machine Learning, https://isi-web.org/sites/default/files/2024-02/Handling-Data-Imbalance-in-Machine-Learning.pdf
  15. Understanding Precision, Recall, and F1 Score Metrics | by Piyush Kashyap | Medium, https://medium.com/@piyushkashyap045/understanding-precision-recall-and-f1-score-metrics-ea219b908093
  16. Deep Learning for Predictive Maintenance: Optimizing Dynamic Time- Dependent Data Streams with Cost Function Analysis, https://as-proceeding.com/index.php/ijanser/article/download/2469/2405/4705
  17. How to Calculate Precision, Recall, and F-Measure for Imbalanced …, https://machinelearningmastery.com/precision-recall-and-f-measure-for-imbalanced-classification/
  18. Demystifying False Positives and False Negatives for Predictive Maintenance, https://nanoprecise.io/webinar/demystifying-false-positives-and-false-negatives-for-predictive-maintenance/
  19. What Are the Best Practices for Reducing False Positives in Machine Vision Systems, https://resources.unitxlabs.com/best-practices-reduction-false-positives-vision/
  20. A simple guide to building a confusion matrix - Oracle Blogs, https://blogs.oracle.com/ai-and-datascience/post/a-simple-guide-to-building-a-confusion-matrix
  21. How to interpret a confusion matrix for a machine learning model - Evidently AI, https://www.evidentlyai.com/classification-metrics/confusion-matrix
  22. www.monolithai.com, https://www.monolithai.com/blog/confusion-matrix-model-prediction#:~:text=The%20confusion%20matrix%20gives%20a,false%20positives%2C%20and%20false%20negatives.
  23. ROC Curves and Precision-Recall Curves for Imbalanced …, https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-imbalanced-classification/
  24. Confusion Matrix: Concepts to Know Before Training Prediction …, https://www.monolithai.com/blog/confusion-matrix-model-prediction
  25. Precision and recall - Wikipedia, https://en.wikipedia.org/wiki/Precision_and_recall
  26. Beginner Guide to Machine Learning Evaluation Metrics | MoldStud, https://moldstud.com/articles/p-a-beginners-guide-to-machine-learning-evaluation-metrics-understand-key-metrics-for-success
  27. Thresholds and the confusion matrix | Machine Learning - Google for Developers, https://developers.google.com/machine-learning/crash-course/classification/thresholding
  28. How can the F1-score help with dealing with class imbalance? - Sebastian Raschka, https://sebastianraschka.com/faq/docs/computing-the-f1-score.html
  29. Classification Metrics for Imbalanced Datasets | by Bingi Nagesh - Medium, https://binginagesh.medium.com/classification-metrics-for-imbalanced-datasets-d1cd56dad6b4
  30. How to explain the ROC curve and ROC AUC score? - Evidently AI, https://www.evidentlyai.com/classification-metrics/explain-roc-curve
  31. Classification: ROC and AUC | Machine Learning | Google for …, https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc
  32. Understanding the ROC Curve and AUC - Towards Data Science, https://towardsdatascience.com/understanding-the-roc-curve-and-auc-dd4f9a192ecb/
  33. Proper Use of ROC Curves in Intrusion/Anomaly Detection - CiteSeerX, https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=91fec9ed91fec55dcea35a456fdd8cc1052e3569
  34. Guide to AUC ROC Curve in Machine Learning - Analytics Vidhya, https://www.analyticsvidhya.com/blog/2020/06/auc-roc-curve-machine-learning/
  35. The receiver operating characteristic curve accurately assesses imbalanced datasets - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC11240176/
  36. The Precision-Recall Plot Is More Informative than the ROC Plot When Evaluating Binary Classifiers on Imbalanced Datasets - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC4349800/
  37. Precision-Recall Curve is more informative than ROC in imbalanced data, https://towardsdatascience.com/precision-recall-curve-is-more-informative-than-roc-in-imbalanced-data-4c95250242f6/
  38. Precision-Recall Curve is more informative than ROC in imbalanced …, https://towardsdatascience.com/precision-recall-curve-is-more-informative-than-roc-in-imbalanced-data-4c95250242f6
  39. Handbook of Anomaly Detection — (14) Sampling Techniques for Extremely Imbalanced Data | by Chris Kuo/Dr. Dataman - Medium, https://medium.com/dataman-in-ai/handbook-of-anomaly-detection-15-sampling-techniques-for-extremely-imbalanced-data-426145208fdb
  40. How is anomaly detection evaluated? - Milvus, https://milvus.io/ai-quick-reference/how-is-anomaly-detection-evaluated
  41. F1 Score vs ROC AUC vs Accuracy vs PR AUC: Which Evaluation Metric Should You Choose? - Neptune.ai, https://neptune.ai/blog/f1-score-accuracy-roc-auc-pr-auc
  42. (PDF) Anomaly Detection Using Unsupervised Learning Methods - ResearchGate, https://www.researchgate.net/publication/383338793_Anomaly_Detection_Using_Unsupervised_Learning_Methods
  43. Towards Unsupervised Validation of Anomaly-Detection Models - arXiv, https://arxiv.org/html/2410.14579v1
  44. A Comparative Evaluation of Unsupervised Anomaly Detection Algorithms for Multivariate Data - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC4836738/
  45. 7 Evaluation Metrics for Clustering Algorithms | Towards Data Science, https://towardsdatascience.com/7-evaluation-metrics-for-clustering-algorithms-bdc537ff54d2/
  46. Outlier Detection and Explanation for Domain Experts - Pure, https://pure.au.dk/ws/files/89987983/Barbora_Micenkova_dissertation.pdf
  47. Unsupervised Anomaly Detection for IoT-Based Multivariate Time Series: Existing Solutions, Performance Analysis and Future Directions - MDPI, https://www.mdpi.com/1424-8220/23/5/2844
  48. AN EVALUATION METHOD FOR UNSUPERVISED ANOMALY DETECTION ALGORITHMS - VAST JOURNALS SYSTEM, https://vjs.ac.vn/jcc/article/download/8455/8709/38290
  49. Log2graphs: An Unsupervised Framework for Log Anomaly Detection with Efficient Feature Extraction - arXiv, https://arxiv.org/html/2409.11890v1
  50. Which evaluation metrics can be used for unsupervised learning? - ResearchGate, https://www.researchgate.net/post/Which_evaluation_metrics_can_be_used_for_unsupervised_learning
  51. Performance Evaluation of Anomaly Detection through Synthetic …, https://www.nixtla.io/blog/performance-evaluation-of-anomaly-detection-through-synthetic-anomalies
  52. Generation of Synthetic Image Anomalies for Analysis - Jantsch, https://jantsch.se/AxelJantsch/papers/2024/DavidBreuss-ISPR.pdf
  53. Industrial Image Anomaly Detection via Synthetic-Anomaly Contrastive Distillation - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12197221/
  54. The Role of Synthetic Data in Enhancing Anomaly Detection Performance — Diffusion Model | by Shawn | Medium, https://medium.com/@hexiangnan/the-role-of-synthetic-data-in-enhancing-anomaly-detection-performance-diffusion-model-6b386f3c210b
  55. Anomaly detection - DataRobot docs, https://docs.datarobot.com/en/docs/modeling/special-workflows/unsupervised/anomaly-detection.html
  56. N-1 Experts: Unsupervised Anomaly Detection Model Selection - AutoML Conference 2022, https://2022.automl.cc/wp-content/uploads/2022/07/n_1_experts_unsupervised_anoma.pdf
  57. Boosting Your Anomaly Detection With LLMs | Towards Data Science, https://towardsdatascience.com/boosting-your-anomaly-detection-with-llms/
  58. How To Evaluate an Anomaly Detection Model? - Monolith AI, https://www.monolithai.com/blog/how-to-evaluate-anomaly-detection-models
  59. Evaluation Metrics for Onboarding Fraud Detection: What Matters - Medium, https://medium.com/@mumbaiyachori/evaluation-metrics-for-onboarding-fraud-detection-what-matters-d9fb076ca471
  60. A Study on Performance Metrics for Anomaly Detection Based on Industrial Control System Operation Data - MDPI, https://www.mdpi.com/2079-9292/11/8/1213
  61. How is anomaly detection evaluated? - Zilliz Vector Database, https://zilliz.com/ai-faq/how-is-anomaly-detection-evaluated